導讀:A5創(chuàng )業(yè)項目春季招商 好項目招代理無(wú)憂(yōu)時(shí)逢年假,把自己對部分場(chǎng)景以及推薦系統的理解整理出來(lái),大多只是提出疑問(wèn)與簡(jiǎn)單思考。一、什么才是好的推薦系統推薦系統要平衡好幾方的
發(fā)表日期:2019-03-18
文章編輯:興田科技
瀏覽次數:9655
標簽:
A5創(chuàng )業(yè)項目春季招商 好項目招代理無(wú)憂(yōu)
時(shí)逢年假,把自己對部分場(chǎng)景以及推薦系統的理解整理出來(lái),大多只是提出疑問(wèn)與簡(jiǎn)單思考。
一、什么才是好的推薦系統
推薦系統要平衡好幾方的關(guān)系
推薦系統三方關(guān)系
用戶(hù):接收到有用的、有趣的內容; 站方:在不斷的好文推薦中,讓用戶(hù)參與其中,升級消費觀(guān)念,最終達到轉化率效果; 內容提供者:內容的參與度提升,曝光度增加,鼓勵用戶(hù)不斷產(chǎn)生內容;
在這三方參與者之間,其實(shí)普通用戶(hù)才是關(guān)鍵。如果用戶(hù)在閱讀過(guò)程中,無(wú)法接收到有用、有趣的內容,那站方、內容提供者的愿景更是無(wú)從實(shí)現。什么樣的內容才是有用的信息?什么樣的推薦系統才是好的推薦系統?從算法角度講,“精準”是推薦系統的衡量標準,即關(guān)聯(lián)相似度。
可是事實(shí)真的是這樣嗎? 提出幾個(gè)場(chǎng)景:
用戶(hù)收藏了一篇關(guān)于“家裝”內容的文章,就根據相似度理論不斷推送同類(lèi)文章。
一周內用戶(hù)“好價(jià)”內多次搜索、瀏覽同一關(guān)鍵詞,第二周停止搜,用戶(hù)是不是已經(jīng)完成購買(mǎi)這一產(chǎn)品了?
用戶(hù)在好價(jià)內搜索“軟毛牙刷”,那好文系統應該推送的是“牙刷測評”還是關(guān)聯(lián)”口腔健康“商品的文章呢? ……
推薦系統不僅僅應該只追求“精準”,因為這可能造成兩項誤區:
重復推送,用戶(hù)可能已經(jīng)購買(mǎi)過(guò)類(lèi)似商品或者根本對這類(lèi)文章失去了興趣
用戶(hù)本來(lái)就打算購買(mǎi)的商品,單一推薦并不能夠增加潛在的消費升級,反而是相似度更小的衍生產(chǎn)品文章,會(huì )讓用戶(hù)感到新意,同時(shí)提高KOI
所以,對于我們的好文推薦系統體系,要完成的不僅僅應該是“精準”,而是在準確識別預測用戶(hù)行為的同時(shí),幫助擴展用戶(hù)的視野,幫助用戶(hù)發(fā)展他們可能感興趣,自己卻并沒(méi)有發(fā)現的內容。
也就是說(shuō),好文推薦系統的場(chǎng)景是極為重要的,應該有懂推薦系統和業(yè)務(wù)流程的產(chǎn)品經(jīng)理同時(shí)加入到推薦系統團隊
二、理解用戶(hù)的行為
分析前,我們首先要關(guān)注用戶(hù)行為和數據:
用戶(hù)數據來(lái)源
以上全部數據都會(huì )是判斷用戶(hù)行為的來(lái)源。那如果訓練一個(gè)二進(jìn)制分類(lèi)器,首要任務(wù)是定義正負樣本,為樣本定義正負標簽絕不是普通任務(wù),聯(lián)系場(chǎng)景考慮,有什么可能存在的坑?
思路有限,我們就單從好價(jià)瀏覽內容時(shí)用戶(hù)數據入手 先畫(huà)一個(gè)行為漏斗:
行為漏斗
最簡(jiǎn)單的思路是:按照行為漏斗的深度對樣本行為設立不同權重,判斷用戶(hù)行為偏好,然后進(jìn)行推薦,可現實(shí)場(chǎng)景確實(shí)是這樣嗎?
簡(jiǎn)單提幾個(gè)問(wèn)題: 1、什么樣的數據可以看作正樣本? 2、點(diǎn)擊行為都是正樣本嗎? 3、點(diǎn)“值”是什么想法?“不值”呢? 4、評論行為證明什么?用戶(hù)是在提出問(wèn)題還是回答問(wèn)題? 5、買(mǎi)過(guò)的商品還需要再推送嗎? ……
討論這幾個(gè)問(wèn)題的基礎要回到推薦系統的第一步:理解/獲取用戶(hù)需求 那用戶(hù)真的需要什么?怎么理解他的行為?
對剛才的問(wèn)題一個(gè)個(gè)來(lái)討論:(不以詳盡性為目的,只做討論)
1、什么樣的數據可以看作正樣本?
行為漏斗中只有“收藏、分享”這兩個(gè)動(dòng)作能被完全看作為正樣本,分享的行為成本還要高于收藏,但是收藏對于推薦系統識別是有很大幫助的,這證明用戶(hù)對于這類(lèi)商品是有興趣的,有潛在的購買(mǎi)需求,這符合我們推薦的基本場(chǎng)景。
2、點(diǎn)擊行為都是正樣本嗎?
所有的不點(diǎn)擊動(dòng)作都可以看作負樣本,但是對于點(diǎn)擊動(dòng)作也應該分情況討論。比如:
3、點(diǎn)“值”是什么想法?“不值”呢?
交互動(dòng)作很大一部分發(fā)生在“值/不值”上,但是這個(gè)行為是一個(gè)很復雜的動(dòng)作,例如:
不同頻次的“點(diǎn)值/不值”動(dòng)作,很值得我們討論。因為點(diǎn)值行為是值得買(mǎi)平臺內中為數不多的評分反饋,更可能反應了用戶(hù)深層次的行為驅動(dòng),他真的想要什么?喜歡什么?行為永遠比言語(yǔ)更能反應用戶(hù)的內心。
4、評論行為證明什么?用戶(hù)是在提出問(wèn)題還是回答問(wèn)題?
之前的討論里用數據分析過(guò)評論區中的內容,但是我們分析的是:用戶(hù)在討論什么?需要什么?而今天我們除了這個(gè)結果以外,我們還需要討論一點(diǎn):這些用戶(hù)是誰(shuí)?提問(wèn)者?回答者?他是不是已經(jīng)購買(mǎi)過(guò)這個(gè)商品了?我們應該更偏向對于提問(wèn)者推送相關(guān)內容,因為他們是更潛在的購買(mǎi)者, 對于專(zhuān)家用戶(hù),可能他已經(jīng)對類(lèi)似內容失去興趣了。
5、買(mǎi)過(guò)的商品還需要再推送嗎?
不能夠確定值得買(mǎi)平臺有沒(méi)有用戶(hù)購買(mǎi)數據(例如海淘網(wǎng)站返利成功數據),如果存在這個(gè)數據庫的話(huà),這完全能夠用戶(hù)是否購買(mǎi)過(guò)這個(gè)產(chǎn)品。如果沒(méi)有的話(huà),只能從用戶(hù)深層的行為來(lái)判斷他是不是購買(mǎi)過(guò)這個(gè)產(chǎn)品了。
三、推薦場(chǎng)景思考
當理解用戶(hù)行為之后,開(kāi)始推薦系統第二步:滿(mǎn)足用戶(hù)需求,用算法做推薦。
大部分電商網(wǎng)站現在都采取了較為成熟完善的協(xié)同過(guò)濾算法,作為推薦系統的主體。同時(shí)也采用了多種推薦系統算法加權累加,例如:FFM、SVM、LFM等。我個(gè)人建議以CF item based為主,一是因為算法成熟,便于實(shí)現,二是user 數目遠大于 item 數目,user based 很難以對用戶(hù)進(jìn)行歸類(lèi)。
做相似度分析第一步:Item畫(huà)像設計,其遵循的原則為提煉出那些易于區分不同Item的顯著(zhù)性特征或標簽。這一步需要做詳盡性分析,不做討論。
轉而思考計算相似度時(shí), 除了在本身item標簽內容中計算相似距離,我們還需要考慮什么場(chǎng)景?什么特殊因子?
1、冷啟動(dòng)場(chǎng)景:
通常在新用戶(hù)進(jìn)入系統時(shí),沒(méi)有數據來(lái)源導致冷啟動(dòng)問(wèn)題,大多數網(wǎng)站采取主動(dòng)選擇標簽功能,進(jìn)行標簽相關(guān)內容推送:
2、推薦不是“推送”,不同用戶(hù)的首頁(yè)流推薦
首頁(yè)的好文推薦是產(chǎn)品引流最重要的窗口,可是過(guò)度推送好文會(huì )影響部分產(chǎn)品用戶(hù)的用戶(hù)體驗,從而影響轉化率。如果根據不同用戶(hù)使用場(chǎng)景決定首頁(yè)流中好文的推送條數,可能效果會(huì )好一些。例如用戶(hù)停留時(shí)間和用戶(hù)日均瀏覽數來(lái)作為不同參數,確定權重W ,計算評分R
根據評分 R 的不同,來(lái)確定首頁(yè)流的推薦數目。
3、多次重復推送同一品類(lèi)文章:多樣性問(wèn)題
用戶(hù)在內容平臺所希望收獲的文章一定是多樣的,如果在較長(cháng)時(shí)間跨度里推薦系統只能覆蓋單一興趣點(diǎn),那這個(gè)推薦列表在長(cháng)期評估時(shí)一定是無(wú)法讓用戶(hù)滿(mǎn)意的。
那也就是說(shuō),我們在推薦系數時(shí),必要考慮一個(gè)因子來(lái)控制多樣性問(wèn)題,如果當系統想推薦文章i時(shí),我們就要對已經(jīng)在文章列表R(u)內任意文章 j ,計算相似度,引入
如果系統的推薦分布頻次,可以和用戶(hù)點(diǎn)擊頻次掛鉤,那結果就完全符合多樣性要求了。
4、熱門(mén)內容更熱,冷門(mén)內容依然無(wú)人問(wèn)津:馬太效應
馬太效應在UGC平臺是常見(jiàn)的,通常體現在用戶(hù)瀏覽參與集中于的熱門(mén)文章中,大部分內容的參與度極低,也可以稱(chēng)為覆蓋率問(wèn)題。覆蓋率可以描述一個(gè)推薦系統對于文章推薦效果長(cháng)尾能力的發(fā)掘,指推薦文章占全部?jì)热莸恼急?,可以用信息熵度量?/p>
作為整個(gè)UGC平臺的管理方,站方有責任讓所有優(yōu)質(zhì)的UGC內容受到關(guān)注,而并非只有熱門(mén)內容,只有克服馬太效應,這樣才能夠讓發(fā)帖用戶(hù)感受到更多的關(guān)注度,鼓勵激發(fā)更多的優(yōu)質(zhì)內容。
加入一個(gè)因子懲罰熱門(mén)權重
5、產(chǎn)品鏈層次因素
回想在本文開(kāi)篇處提出的問(wèn)題:用戶(hù)在好價(jià)內搜索“軟毛牙刷”,那好文系統應該推送的是“牙刷測評”還是關(guān)聯(lián)”口腔健康“商品的文章呢?
宏觀(guān)來(lái)看,所有品類(lèi)的商品都存在產(chǎn)品鏈上下層的關(guān)系。買(mǎi)了iphone X的人可能對于手機殼感興趣,想買(mǎi)普通牙刷的人可能就是漱口水、電動(dòng)牙刷的潛在消費者。沒(méi)有一項產(chǎn)品是單獨存在的,既然我們要做的是提高用戶(hù)消費觀(guān)念,那推薦系統是不是該偏向推送更深層次的內容,加大權重。
6、買(mǎi)過(guò)的產(chǎn)品還要推送嗎?
當我們已知用戶(hù)購買(mǎi)過(guò)產(chǎn)品后,我們是否應該再次推送相關(guān)內容呢? 這個(gè)時(shí)候我們需要判斷商品的消耗性、周期性、以及是否高話(huà)題性。這都關(guān)乎著(zhù)是否再次推送內容,什么時(shí)候再推送內容。但是具體情況太多,就不做算法推導了。
說(shuō)一個(gè)很有趣的現象,淘寶的推薦系統工程師做過(guò)實(shí)驗,點(diǎn)擊率最高的推薦項目是用戶(hù)剛剛搜過(guò),剛剛完成購買(mǎi)的商品。但是重復推送內容,這是一個(gè)好的推薦系統該做的嗎?團隊目的到底是什么:推薦系統點(diǎn)擊率高?提供用戶(hù)感興趣的內容?KpI ?不同目的可能導致結果相差萬(wàn)千。
7、實(shí)時(shí)性
實(shí)時(shí)性主要是要求推薦系統在分鐘級/秒級完成數據分析,作出預判,并且對其作出操作。這個(gè)問(wèn)題主要面對的是技術(shù)性問(wèn)題,因為許多網(wǎng)站的推薦系統都是以天為單位進(jìn)行日志讀取操作,再完成推薦動(dòng)作。而如果要完成實(shí)時(shí)操作,就只能簡(jiǎn)化推薦系統算法,例如 對于User-Item行為矩陣進(jìn)行擴充動(dòng)作簡(jiǎn)化預測過(guò)程。
需要根據場(chǎng)景采納不同的推薦模式,好文內容可能更適合離線(xiàn)式方法。
后記
其實(shí)基于值得買(mǎi)推薦系統,XgBoost 與Factorization Machine (最新的FFM)都可能有不錯的效果,但是本文討論以場(chǎng)景為出發(fā)點(diǎn),不討論算法具體內容,而且業(yè)界大多數都認可一個(gè)觀(guān)點(diǎn),即在推薦系統中:UI > 數據 > 算法,如果讓用戶(hù)接納,并覺(jué)得懂得其心,這才是最關(guān)鍵的一點(diǎn)。
pS:寫(xiě)文章時(shí)正逢年節,喝酒誤事,思路斷斷續續。前后內容繁雜,一人之力遠無(wú)法考慮周全,只做簡(jiǎn)單思考,學(xué)習總結之用。
始發(fā)于簡(jiǎn)書(shū):周CC君
<script>document.writeln('更多新聞
2023
企業(yè)在當今數字化的時(shí)代中,網(wǎng)站建設是取得成功不可或缺的一部分。。天津網(wǎng)站建設是指在天津地區進(jìn)行的用于...
View details
2022
網(wǎng)站優(yōu)化效果主要取決于各個(gè)頁(yè)面權重高低,各個(gè)頁(yè)面權重匯集在一起,網(wǎng)站優(yōu)化效果才會(huì )更加明顯,那么各個(gè)頁(yè)...
View details
2023
引言在今天的數字化時(shí)代,擁有一個(gè)專(zhuān)業(yè)、高效的網(wǎng)站對于企業(yè)來(lái)說(shuō)至關(guān)重要。。隨著(zhù)越來(lái)越多的用戶(hù)通過(guò)搜索引...
View details
2023
概述在今天的數字時(shí)代,擁有一個(gè)動(dòng)態(tài)和專(zhuān)業(yè)的網(wǎng)站對于任何業(yè)務(wù)來(lái)說(shuō)是至關(guān)重要的。。然而,隨著(zhù)時(shí)間的推移,...
View details